医学图像分割综述
今天要跟大家分享的是关于医学图像分割方法的综述,我们将翻译一篇2020年的医学图像分割综述文章,题为“Medical Image Segmentation Using Deep Learning: A Survey”,该文章介绍了深度学习在医学图像分割领域的应用和发展情况。
一、简介
(一)医学图像分割
随着医学图像设备的发展和广泛应用,X光、CT检查、核磁共振成像(MRI)和超声波扫描检查已经成为四种重要的医疗辅助手段,用于辅助医生进行疾病诊断、预后评估和手术计划。为了帮助医生做出准确的诊断,需要进行医学图像分割,把医学图像中的一些关键目标识别出来,并从中提取特征用于后续的病灶诊断。
一般的图像分割任务主要有两类:语义分割(semantic segmentation)和实例分割(instance segmentation)。图像语义分割是一种像素级的分类任务,需要对图像的每一个像素点都进行分类预测。而图像实例分割不仅需要进行像素级分类,还需要基于特定类别来区分实例。医学图像分割则存在一定特殊性,每个器官或组织之间存在很大的差异,因此对医学图像进行实例分割意义不大。医学图像分割通常是指医学图像的语义分割。目前主要的医学图像分割任务包括肝脏和肝脏肿瘤分割、脑和脑肿瘤分割、视盘分割(optic disc segmentation)、细胞分割、肺分割和肺结节分割等。
(二)医学图像分割方法
早期的医学图像分割方法通常依赖于边缘检测(Zhao et al. 2006)、模板匹配技术(Lalonde et al. 2001, Chen et al. 2009)、统计形状模型(Tsai et al. 2003)、活动轮廓(Held et al. 1997,Li et al. 2013)和机器学习(Li et al. 2004)等方法。虽然上述这些方法在某些场景下有着不错的表现,但由于特征表示的困难度,图像分割仍然是计算机视觉领域中最具有挑战性的课题之一。尤其是对医学图像进行特征提取要比普通的RGB图像更困难,因为医学图像往往存在诸如模糊、噪声、对比度低等问题。
近年来,随着深度学习技术的快速发展,卷积神经网络(CNN)已经成功地实现了图像的层次特征表示,进行医学图像分割也不再需要人为提供相应特征,CNN也因此成为图像处理和计算机视觉领域内最热门的研究课题。而且由于用于特征学习的CNN对图像的噪声、模糊、对比度等问题不敏感,也使得其在医学图像分割任务中能有不错的表现。
根据标注数据的规模,通常可将机器学习方法分类为有监督学习(supervised learning)、弱监督学习(weakly supervised learning)和无监督学习(unsupervised learning)。有监督学习的优势在于能够基于仔细标注的数据来进行训练,往往能得到具有更优表现的模型,但难点在于通常很难得到大量的医学图像标注数据。相反,无监督学习不需要标注好的数据就可进行训练,但增加了模型学习的难度。而弱监督学习介于上述两类方法之间,只需要小部分标注好的数据,其他大部分数据可以是未标注的,也有较好的性能。
目前,医学图像分割领域内的研究方向主要集中在两类方法:有监督学习和弱监督学习。作者在文章中给出的图1展示了医学图像分割领域内由粗到细的不同深度学习方法,包括有监督学习、弱监督学习和一些医学图像分析领域的最新研究成果。
在有监督学习方面,主要从骨干网络设计、网络关键组件设计和损失函数设计三个方面进行介绍;在弱监督学习方面,主要总结了用于处理少样本数据或不平衡样本数据的三类方法:数据增强(data augmentation)、迁移学习(transfer learning)和交互分割(interactive segmentation);在最新研究方面,主要介绍了神经网络架构搜索(NAS)、图卷积网络(GCN)、形状注意力机制(shape attentive)和多模态数据融合技术(multi-modality data fusion)。此外,文章还收集了一些常见的用于医学图像分割的公开数据集的相关信息。
二、有监督学习
有监督学习方法是医学图像分割任务中最常用的方法,因为这类任务对精度的要求很高。下面主要从骨干网络设计、网络关键组件设计和损失函数设计三个方面来介绍有监督学习的发展情况,如图2所示。
(一)骨干网络设计(Backbone Networks)
对于图像语义分割任务,需要进行图片的像素级分类。为了实现这个目的,研究者们提出了基于编码-解码的端到端模型,如全卷积网络FCN(Long et al. 2015)、U-Net(Ronneberger et al,2015)、Deeplab(Chen et al. 2017)等。其中,编码器通常用于提取图像特征,而解码器用于将提取的特征还原回原始图像大小,并输出最终的分割结果。虽然传统端到端(end-to-end)模型对医学图像分割有效,但因为其降低了模型的解释力,所以需要设计一些新的网络结构来提高模型在医学图像分割上的性能。下面介绍的U-Net、3D Net等网络结构从多个方面对医学图像分割任务面临的问题进行了改进。
1.U-Net
由于医学图像往往包含噪声且边界模糊,仅靠低层次的图像特征难以进行目标检测。同时,由于缺乏图像的细节信息,仅靠图像语义特征无法得到准确的边界。而U-Net通过跳跃连接,将低分辨率和高分辨率的特征映射结合起来,有效地融合了低层次和高层次的图像特征,从而成为医学图像分割任务的一个理想解决方案。目前,U-Net已经成为了大多数医学图像分割任务的一个基准,并且激发了很多有意义的改进方法,其网络结构如图3所示。
2.3D Net
在实践中,大多数医学数据如CT和MRI图像都是以三维数据的形式存在,使用三维卷积核能更好地挖掘数据的高维空间相关性。因此,很多新方法被设计出来。3D U-Net(Çiçek et al. 2016)可用于直接处理三维医学数据。由于计算资源的限制,3D U-Net仅包含3次下采样,难以有效提取深层次的图像特征,导致模型精度有限。V-Net(Milletari et al. 2016)则采用残差连接,避免了梯度消失,且加速了网络收敛,从而可以设计更深层次的网络结构(4次下采样),实现了更高的性能。V-Net的网络结构如图4所示。Voxresnet(Yu et al. 2016)、3DRUNet(Lee et al. 2017)和Res-UNet(Xiao et al. 2018)等网络也可用于三维医学数据分析。上述这些三维网络结构虽然能用于处理三维医学数据,但由于参数数量过多,面临着计算成本较大和GPU内存负荷过高的问题。
3.循环神经网络(Recurrent Neural Network)
循环神经网络(RNN)最初被设计用来分析序列数据,其特点是能凭借对上下文信息的关系分析,捕捉图像的局部和全局空间特征。在医学图像分割中,RNN可以用来拟合图像序列的时间依赖关系。长短期记忆网络LSTM(Hochreiter et al. 1997)是最常见的RNN模型之一,引入了自循环来学习长期依赖信息。Alom等人(2018)将ResUNet和RNN结合,实现了递归残差卷积层的特征积累,从而改进了图像分割任务的特征表示。其循环残差卷积单元如图5所示。Gao等人(2018)结合LSTM和CNN来拟合不同大脑MRI切片的时间关系,以提高分割精度。Bai等人(2018)则结合FCN和RNN来挖掘空间信息,用于主动脉的序列分割。
4.跳跃连接(Skip Connection)
跳跃连接能够融合低分辨率和高分辨率信息来改进特征表示。但由于低分辨率和高分辨率特征之间存在很大的语义差异,会造成模糊的特征映射。Ibtehaz等人(2020)提出了包含残差路径(ResPath)的MultiResUNet,使编码器能够在融合解码器的特征之前执行更多的卷积操作。mU-Net(Seo et al. 2019)和FED-Net(Chen et al. 2019)网络也通过在跳跃连接中增加卷积操作,提高了医学图像分割的性能。
5.二维和三维的级联模型(Cascade of 2D and 3D)
级联模型(cascade model)通常会训练两个及以上的模型,可以提高图像分割任务的分割精度。其模型架构主要分为三类框架:粗-细分割(coarse-fine segmentation)、检测分割(detection segmentation)和混合分割(mixed segmentation)。
1)粗-细分割(coarse-fine segmentation)
粗-细分割框架通常使用由两个二维网络组成的级联模型来进行分割。先由一个网络进行粗略的分割,再基于此前的分割结果应用另一个网络进行精细的分割。Christ等人(2016)提出了一个用于肝脏和肝脏肿瘤分割的级联模型,首先使用FCN来分割肝脏,再基于肝脏的分割结果应用另一个FCN来进行肝脏肿瘤分割。Yuan等人(2018)提出的级联模型先使用一个卷积-反卷积网络(CDNN)模型(19层的FCN)来分割肝脏区域,再使用另一个CDNN模型(29层的FCN)对之前的分割结果进一步精细地分割肝脏,最后将经过直方图均衡化(histogram equalization)的肝脏分割结果补充输入到第三个CDNN模型(29层的FCN)中,用于肝脏肿瘤分割。
2)检测分割(detection segmentation)
检测分割框架通常先使用诸如R-CNN(He et al. 2017)和You-On-Look-Once(YOLO,Bochkovskiy et al. 2020)等模型进行目标定位识别,再使用另一个模型基于前面的粗分割结果来进行更细节的分割。Al-Antari等人(2018)先使用YOLO对乳房X光检查结果(mammograms)进行目标检测,再使用一个全分辨率卷积网络(FrCN)来进行分割,最后使用一个深度卷积网络来识别乳腺肿块并进行良恶性分类。Tang等人(2018)则提出了使用faster R-CNN(Ren et al. 2016)和Deeplab(Chen et al. 2017)的级联模型来进行肝脏分割。Salehi等人(2017)和Yan等人(2019)提出了一类用于全脑MRI和高分辨率乳腺X光检查结果分割的级联模型。这类级联模型通过使用由第一个网络产生的后验概率,比普通的级联模型能提取更丰富的多尺度上下文信息。
3)混合分割(mixed segmentation)
由于大部分医学数据图像均为三维体积数据,二维卷积神经网络无法学习第三维的时间信息,而三维卷积神经网络又需要很高的计算成本和GPU内存消耗,因此很多伪三维(pseudo-3D)分割方法被提出来。Oda等人(2019)提出用包含三个网络的级联模型来对CT图像进行腹动脉区分割。Vu等人(2019)将相邻切片的堆叠作为预测中间切片的输入,并将得到的二维特征映射用于二维网络模型的训练。虽然上述伪三维分割方法能利用局部时间信息从三维体积数据中进行目标分割,但不太能提高分割精度。
相比之下,二维和三维的混合级联模型能有效提高分割精度并降低学习成本。Li等人(2018)提出了用于肝脏和肝脏肿瘤分割的混合密集连接U-Net(H-DenseUNet)。该方法首先使用一个Resnet来获得粗略的肝脏分割结果,再使用2D DenseUNet来提取二维图像特征,接着使用3D DenseUNet来提取三维图像特征,最后通过一个特征融合层来对二维和三维特征进行联合优化。虽然H-DenseUNet的复杂度比完全的三维网络模型低,但其结构仍然比较复杂,且需要大量参数。Zhang等人(2019)提出了一个轻量级的混合卷积网络(LW-HCN),其结构与H-DenseUNet类似。该方法的优势在于使用了深度-时空分离(DSTS)模块和三维深度可分离卷积模块,使得模型的参数数量和计算成本更低。
4)其他级联模型
由于传统U-Net在检测带有模糊噪声边界的较小解剖结构时表现往往欠佳,一些改进的级联模型也被设计出来。Valanarasu等人(2020)提出了一个由全新架构Ki-Net和U-Net构成的级联模型KiU-Net,用于大脑夹层分割,能够提高整体的分割精度。其中Ki-Net通过在编码器的每一转换层后增加一个上采样层,使其中间层的空间尺寸要大于输入数据,从而获得了比U-Net更强的边缘捕捉能力。由于KiU-Net能同时利用Ki-Net的低层次的精细边缘特征映射和U-Net的高层次形状特征映射,不仅能提高分割精度,还能实现对小解剖标注点和模糊噪声边界的快速收敛。
6.其他(Others)
早期,生成对抗网络(GAN)经常被用于进行数据增强,生成新样本。但由于研究者们后来发现生成对抗的思想可以适用于大多数领域,因此GAN在医学图像分割领域内也渐渐被广泛使用。由于医学图像通常对比度较低,在不同组织或病灶间的边界很模糊,且带标签的医学数据往往比较稀缺,基于U-Net的图像分割方法仅依靠像素损失难以完全挖掘像素间的局部和全局关系。使用GAN可以帮助改进图像分割的效果。
Luc等人(2016)最早将GAN应用于图像分割,其中生成网络作为分割模型,而对抗网络则作为分类器。Singh等人(2020)则提出了一个条件生成对抗网络(cGAN),用于分割目标区域(ROI)中的乳腺肿瘤。在训练样本数量有限的情况下,cGAN仍然有很好的性能。其中生成网络用于识别肿瘤区域并生成分割结果,对抗网络用于区分金标准和模型的分割结果。通过两种网络的对抗,促使生成网络尽可能地挖掘真实标签的特征。Conze等人(2020)使用预训练的级联编码-解码结构作为cGAN的生成网络,用于腹部多器官分割,并将对抗网络作为判别器,促使模型生成更真实的器官分割结果。
(二)网络关键组件设计(Network Function Block)
在网络结构设计中,一些关键组件的调整可能在很大程度上提高模型的整体性能。下面将介绍密集连接、Inception结构、深度可分、注意力机制和多尺度信息融合技术等常见的关键组件设计。这些设计可用于解决神经网络模型在医学图像分割中所面临的不同问题,从而改进模型的分割效果。
1.密集连接(Dense Connection)
密集连接通常用于构造一类特殊的卷积神经网络。对于密集连接网络,在前向传播过程中,要以前面所有层的输出结果作为当前层的输入。受密集连接思想的启发,Guan等人(2019)提出了一个改良的U-Net,使用密集连接模块(如图6所示)来替换U-Net的每个子模块。虽然密集连接有利于获取更丰富的图像特征,但通常会在一定程度上降低特征表示的鲁棒性,并增加了参数数量。
Zhou等人(2019)则将所有的U-Net层(第一到第四层)连接在一起,其结构如图7所示。该方法的优势在于允许网络自动学习不同层特征的重要性。而且通过重新设计跳跃连接,编码器可以用于聚合不同语义尺度的特征,从而形成了一种高度灵活的特征融合方案。其缺点在于密集连接的使用增加了参数数量。因此,模型的优化方案中集成了一种用于减少参数数量的剪枝策略。同时,也使用了深度监督(Lee et al. 2015)来平衡由于剪枝造成的分割精度下降。
2.Inception
虽然具有更深层次的CNN往往比浅层CNN具有更好的性能,但都存在诸如梯度消失、网络收敛困难、内存占用大等问题。Inception结构能克服上述问题,其结构如图8所示。Inception结构的优点是在不增加网络深度的情况下,通过合并并行的卷积核来提高模型的性能。这种结构通过使用多尺度的卷积核,能提取更丰富的图像特征,并进行特征融合,以获得更好的特征表示。受GoogleNet(Szegedy et al. 2015,Szegedy et al. 2016)的启发,Gu等人(2019)将Inception结构引入到医学图像分割中,提出了CE-Net。CE-Net将空洞卷积加入到每个平行结构中,能在更宽的感受域内提取特征,并且增加了特征映射的1*1卷积。然而Inception结构过于复杂,会造成模型难以进行修改。
3.深度可分离卷积(Depth Separability)
4.注意力机制(Attention Mechanism)
对于神经网络而言,注意力模块可以选择性地改变输入,或根据重要性程度对输入变量赋予不同的权重。近年来,很多尝试结合深度学习和视觉注意力机制的研究集中在应用掩码(masks)来塑造注意力机制。掩码的原理是设计一个新层,用于识别图像的关键特征,使得网络在经过训练和学习后,只关注图像的感兴趣区域(ROI)。
1)局部空间注意力(Local Spatial Attention)
空间注意力模块旨在计算空间中每个像素点的特征重要性,并提取图像的关键信息。Jaderberg等人(2015)提出了用于图像分类的空间变换网络(ST-Net),通过使用空间注意力模块,对原始图像的空间信息进行转换,并提取关键信息。普通池化操作通常相当于信息合并,容易造成关键信息的丢失。为了解决该问题,研究者们设计了一种空间变换模块,可以通过空间变换来提取图像的关键信息。受该模块的启发,Oktay等人(2018)提出了注意力U-Net(attention U-Net),在融合编码器和解码器的特征之前通过使用注意力模块(如图9所示)来改变编码器的输出。其中注意力模块输出的是一组用于控制不同空间位置上像素特征重要性的门信号。该模块将1*1卷积结合Relu和sigmoid函数来生成权重映射,并通过与编码器特征相乘来进行修正。
2)通道注意力(Channel Attention)
通道注意力机制可以利用学习到的全局信息,有选择地强调有用的特征,并抑制无用特征,从而实现特征的再校正。Hu等人(2018)通过将通道注意力机制(如图10所示)引入到图像分析领域,提出了SE-Net,并赢得了2017年ImageNet挑战赛。该方法采用三个步骤来对通道进行注意力加权:第一步是进行压缩,对输入特征进行全局平均池化,以得到1*1 Channel的特征映射;第二步是激励操作,通过通道特征的相互作用来减少通道数量,然后将减少后的通道特征重构回原来的通道数量;第三步是应用sigmoid函数来生成[0,1]范围内的特征权重映射,再将比例乘回原始输入特征。Chen等人(2019)则提出了FED-Net,使用SE模块来实现特征通道注意力机制。
3)混合注意力(Mixture Attention)
前面提到的空间和通道注意力机制是用于改善特征表示的两种常见策略。然而,空间注意力机制忽略了不同通道间的信息差异,且同等地对待每个通道。相反,通道注意力机制则是一种相对粗糙的操作,直接集中于全局信息,忽略了每个通道的局部信息。因此,研究者们结合两种机制的优势,设计出了很多基于混合注意力模块的模型。Kaul等人(2019)提出了用于医学图像分割的focusNet,其中以SE-Block作为一种通道注意力机制,还设计了一种空间注意力机制的模块。
为了改进网络的特征判别表示,Wang等人(2019)将注意力模块嵌入到U-Net收缩路径(contraction path)和扩张路径(expansion path)之间的中心瓶颈中,提出了ScleraSegNet。而且通过比较通道注意力机制、空间注意力机制以及两种机制的不同组合在医学图像分割上的效果,发现以通道为中心的注意力机制(channel-centric attention)对模型的图像分割性能的提升最大。基于该研究结论,Wang等人最终夺得了2019虹膜分割比赛(SSBC2019)的冠军。
4)非局部注意力(Non-local Attention)
虽然前面提到的三种注意力机制能改善最终的分割效果,但这些机制只采用了局部卷积操作。该操作集中于邻近卷积核的区域,而忽略了全局信息。而且,下采样操作会导致空间信息的损失,尤其不利于生物医学图像分割。一种基本的解决方案是通过堆叠多个层来提取长距离信息。但该方法由于需要大量参数,且计算成本很高,实际效率很低。此外,在解码器模块中,上采样、反卷积和插值操作也只利用了局部信息。
为了克服局部卷积在医学图像分割中的缺陷,Wang等人(2020)提出了非局部U-Net。该网络通过在上采样和下采样过程中应用自注意力机制和全局聚合模块(如图11所示)来提取完整的图像信息,从而提高了最终的分割精度。而且这个非局部模块是一种通用模块,可以嵌入到不同的卷积神经网络中以提高性能。
综上可知,注意力机制是一种提高图像分割精度的有效方法。其中,空间注意力机制集中于感兴趣区域,通道注意力机制更关注感兴趣特征,而混合注意力机制则吸取了两种机制的优点。然而,不同于非局部注意力机制,传统注意力机制不能利用不同目标和特征之间的关系信息,因此基于非局部注意力机制的CNN通常比普通CNN在图像分割任务中表现更好。
5.多尺度信息融合(Multi-scale Information Fusion)
在医学图像分割中,其中一个挑战在于变化范围很大的目标尺度。例如,处于中晚期的肿瘤可能比早期时大很多。而在神经网络模型中,感知域的大小决定了能使用的上下文信息。因此,不同尺度的目标会影响模型的训练过程,从而影响最终的分割效果。
1)金字塔池化(Pyramid Pooling)
并行的多尺度池化操作能有效提高网络对上下文信息的利用,从而能提取更丰富的语义信息。He等人(2015)最早提出空间金字塔池化(SPP)来实现多尺度特征提取。SPP将图像分为粗糙空间和精细空间,再采集局部特征和多尺度特征。受SPP启发,研究者们设计了一个用于多尺度信息提取的残差多核池化(RMP)模块(Gu et al. 2019)。该模块使用四个不同尺寸的池化核对全局上下文信息进行编码。然而由于池化通常扩大了感受域,并降低了图像分辨率,使得RMP中的上采样操作不能对细节信息的损失进行恢复。
2)空洞空间金字塔池化(Atrous Spatial Pyramid Pooling)
与传统卷积相比,空洞卷积能有效扩大感受域而不会增加参数数量。Chen等人(2017)结合空洞卷积和SPP的优点,提出了空洞空间金字塔池化(ASPP)模块,能够减少由于池化造成的细节信息损失,并改善图像分割结果。ASPP在识别不同尺度的相同目标上表现良好。Lopez等人(2017)则将叠加的多尺度空洞卷积应用于大脑肿瘤分割,实现了明显的精度提升。
虽然ASPP有上述优势,但在图像分割方面也存在两个问题:其一是局部信息的损失(如图12所示),其二是较远距离上的信息可能是不相关的。而对于设计一个精细的空洞卷积网络而言,需要同时处理好不同尺度目标之间的关系。Wang等人(2018)提出了混合扩展卷积(HDC)网络。该网络通过使用锯齿波式启发式算法来分配膨胀率,从而能利用更宽像素范围内的信息,并抑制网格效应。
3)非局部和ASPP(Non-local and ASPP)
正如前面所说,空洞卷积虽然能扩大感受域来收集更丰富的语义信息,但由于网格效应会造成细节信息的损失。因此,有必要通过增加约束或建立像素关联来改善空洞卷积的性能。Yang等人(2019)结合ASPP和非局部操作的优点,提出了一种用于人体部位分割的模块,如图13所示。其中,ASPP使用多个并行的不同尺度空洞卷积来捕捉更丰富的信息,非局部操作则用于捕捉广泛的依赖信息。
(三)损失函数设计(Loss Function)
除上面提到的骨干网络和网络关键组件设计外,损失函数也是网络模型性能的一大重要影响因素。损失函数的作用主要体现在模型训练过程中,通过采用不同的损失函数,可以调整模型对目标的学习能力,从而影响模型的分割效果。下面将介绍交叉熵损失、Dice损失、Tversky损失、边界损失等常见的损失函数,这些损失函数可用于不同类型的医学图像分割任务,能够改进模型的分割效果。
1.交叉熵损失(Cross Entropy Loss)
2.加权交叉熵损失(Weighted Cross Entropy Loss)
为了同时调整正样本和负样本的权重,可以使用平衡交叉熵(BCE)损失函数,可由公式(3)计算得到。
改进的损失函数可由公式(5)计算得到。
3.Dice损失(Dice loss)
Dice损失是一种常用的医学图像分割评估指标,其本质上是对分割结果与对应金标准之间重叠度的测量。取值范围为[0,1],Dice损失取值为1时表示分割结果与金标准完全重合。Dice损失可由公式(6)计算得到,其中A为预测分割结果,B为金标准。
4.Tversky损失(Tversky Loss)
5.广义Dice损失(Generalized Dice Loss)
6.边界损失(Boundary Loss)
7.指数对数损失(Exponential Logarithmic Loss)
8.损失函数改进(Loss Improvement)
在医学图像分割中,对损失函数的改进主要集中于大背景下的小目标分割问题(类不平衡问题)。Chen等人(2019)将传统主动轮廓能量最小(traditional active contour energy minimization)应用到卷积神经网络中,提出了一种新的损失函数。Li等人(2020)提出了一种新的正则项,用于改进交叉熵损失函数。Karimi等人(2019)提出了基于Hausdorff距离(HD)的损失函数。还有很多研究者们通过在损失函数中加入惩罚或根据具体任务调整优化策略等方式来解决类不平衡问题。
在许多医学图像分割任务中,由于一张图像中可能仅有一两个目标,且目标占图像的比例有时很小,导致网络训练很困难。因此,为了改善网络训练过程并提高分割精度,通过改进损失函数使其集中于小目标,要比改进网络结构容易很多。然而,损失函数的设计往往具有很强的任务针对性,因此需要根据实际任务的要求合理地进行设计和选择。
9.深度监督(Deep Supervision)
通常,增加网络深度能在一定程度上改善网络的特征表示,但同时也会造成诸如梯度消失和梯度爆炸等问题。Lee等人(2015)通过将辅助分支分类器(auxiliary branching classifiers)加入到某些层中,提出了深度监督网络(DSNs)。Dou等人(2017)将三维深度监督机制引入到三维全卷积网络中,提出了用于心脏和肝脏分割的3D DSN网络。该网络能用于volume-to-volume学习,消除了很多冗余计算,并降低了训练数据有限情况下的过拟合风险。Dou等人(2020)提出了一种用于胎儿大脑MRI皮质板分割的方法,通过使用结合深度监督和残差连接机制的全卷积神经网络,能够得到很好的分割效果。实际上,深度监督不仅能约束特征在网络各个阶段的判别能力和鲁棒性,还能提高网络训练效率。
三、弱监督学习
虽然卷积神经网络(CNN)在医学图像分割上具有良好的适应性,但其分割结果严重依赖于高质量的标签。而在医学图像分析领域中,由于数据采集标注的成本往往很高,很少能构建出高质量标签的数据集。因此,有很多研究通过利用弱监督学习对标签缺失或不完整的数据进行分析,具体分为三个方向:数据增强(Data Augmentation)、迁移学习(Transfer Learning)及交互分割(Interactive Segmentation)。常见的弱监督学习方法如图14所示。
(一)数据增强(Data Augmentation)
数据增强是解决数据标签缺失的一种有效方法。除了传统的数据增强方法, Goodfellow等人(2014)提出的GAN克服了对原始数据的依赖,也是目前较流行的数据增强策略。
1.传统方法(Traditional Methods)
一般的数据增强方法包括改善图像质量(如噪声抑制)、改变图像强度(如亮度、饱和度和对比度)、改变图像布局(如旋转、失真和缩放)等。事实上,传统数据增强最常用的方法是参数变换(旋转、平移、剪切、移位、翻转……)。由于这种转换是虚拟的,没有计算成本,因此通常在每次训练前进行。
2.条件生成对抗网络(Conditional Generative Adversarial Nets, cGAN)
随后,Guibas等人(2017)提出了一种由GAN(Goodfellow et al. 2014)和cGAN(Mirza et al. 2014)组成的网络架构,即先将随机变量输入GAN中,以生成眼底血管标签的合成图像,然后将生成的标签图输入到条件GAN,用于生成真实的视网膜眼底图像。最后,通过分类器能否区分合成图像和真实图像来验证合成图像的真实性。
Mahapatra等人(2014)则利用cGAN合成带有所需异常的X光图像,该模型将异常X光图像和肺分割标签作为输入,然后生成具有相同疾病的合成X光图像作为输入X光图像,同时得到分割后的标签。此外,还有一些研究工作(Shin et al. 2018,Jin et al. 2018)利用GAN或cGAN生成图像来实现数据增强。
虽然cGAN生成的图像存在边界模糊、分辨率低等缺陷,但cGAN为后来用于图像样式转换的CycleGAN(Zhu et al. 2017)和StarGAN(Choi et al. 2018)提供了基本思路。
(二)迁移学习(Transfer Learning)
迁移学习就是利用模型的训练参数初始化新模型,以实现对标签有限的数据进行快速的模型训练。一种方法是针对目标医学图像分析任务微调ImageNet上的预训练模型(Pre-trained Model),另一种方法是领域适应(Domain Adaptation)。
1.预训练模型(Pre-trained Model)
一些研究者发现,使用基于自然图像如ImageNet上的预训练网络作为编码器,在U-Net-like网络上对医学图像数据微调,就可以进一步提高医学图像的分割效果。Kalinin等人(2020)使用在ImageNet上预先训练的VGG-11、VGG-16和ResNet-34网络作为U形网络(U-shaped Network)的编码器,对血管增生性病变和外科手术的无线胶囊内镜视频中的机械仪器进行语义分割。同样,Conze等人(2020)使用在ImageNet上预先训练的VGG-11作为分割网络的编码器,进行肩胛肌MRI分割。
由于ImageNet上的预训练模型可以学习医学和自然图像所需的一些共同的基本特征,因此对自然图像的模型进行微调就可以应用于医学图像分析,但同时要注意域自适应(domain adaptive)的问题。此外,由于预训练模型往往依赖于二维图像数据集,流行的迁移学习方法很难适用于三维医学图像分析。而如果有标注的医学数据集数量足够大,预训练对提高模型性能的效果也可能较弱。事实上,由于预训练模型的效果依赖于数据情况和目标任务,具有不稳定性,因此我们要权衡实际任务中使用预训练模型还是设计新模型。
2.领域适应(Domain Adaptation)
如果训练目标域的标签不可用,只能访问其他域的标签,那么常见的方法是将源域(source domain)上训练好的分类器转移到没有标注数据的目标域。
图16展示了CycleGAN的循环结构,主要由两个生成器和两个判别器组成。首先,一个在X域的图像通过生成器G转移到Y域,然后生成器G的输出通过生成器F在X域中重构回原始图像。相反,一个在Y域的图像通过生成器F转移到X域,然后生成器F的输出通过生成器G在Y域中重构回原始图像。判别器G和F都起着判别作用,保证了图像样式的传递。
Huo等人(2018)利用CycleGAN对CT图像中的脾脏分割任务(Zhu et al. 2017)提出了一种联合优化的图像合成和分割框架。该框架实现了从标注的源域到合成图像目标域的图像转换。在训练过程中,使用合成的目标图像来训练分割网络。在测试过程中,直接将目标域的真实图像(不带标签)输入到训练好的分割网络中,以获得理想的分割结果。Chen等人(2019)也采用了类似的方法,利用MR图像的分割标签来完成心脏CT的分割任务。Chartsias等人(2017)利用CycleGAN从CT切片和心肌分割标签中生成相应的MR图像和标签,然后利用合成MR图像和真实MR图像训练心肌分割模型,比在真实MR图像上训练的心肌分割模型效果提高了15%。同样,也有一些研究通过CycleGAN实现了不同域之间的图像转换,提高了医学图像分割的性能(Zhao et al. 2017,Valindria et al. 2018)。
(三)交互分割(Interactive Segmentation)
人工绘制医学图像分割标签通常繁琐而耗时,尤其是对于三维数据。交互分割则允许临床医生对模型生成的初始分割图像进行交互式校正,以获得更准确的分割结果。有效交互式分割的关键在于临床医生可以使用诸如鼠标点击和轮廓框(outline boxes)等交互方法来改进模型的初始分割结果,随后更新模型参数以生成新的分割图像,再获取临床医生最新的反馈。
1.DeepIGeoS
Wang等人(2018)提出了利用两个CNN级联的DeepIGeoS,对二维和三维医学图像进行交互分割。第一个CNN叫做P-Net,用于输出一个粗分割结果。在此基础上,用户提供交互点或短线标注出错误的分割区域,然后将其作为第二个CNN(R-Net)的输入,获取修正后的结果。对二维胎儿MRI图像和三维脑瘤图像分析的研究结果表明,与GraphCuts、RandomWalks、ITK-Snap等传统的交互分割方法相比,DeepIGeoS大大降低了用户交互需求,并减少了所需时间。
2.BIFSeg
Wang等人(2018)提出了与GrabCut(Boykov et al. 2001,Rother et al. 2004)原理相似的BIFSeg。GrabCut的原理是先让用户绘制一个边界框(bounding box),将边界框内的区域作为CNN的输入,得到一个初始结果,再通过微调获取更好的分割结果。GrabCut通过从图像中拟合高斯混合模型(Gaussian mixture model,GMM)来实现图像分割,而BIFSeg则从图像中拟合CNN。通常基于CNN的分割方法只能处理已经出现在训练集中的对象,从而限制了这些方法的灵活性,但BIFSeg尝试使用CNN来分割训练过程中未出现的对象。这个过程相当于让BIFSeg学会从一个边界框中提取对象的前景部分。在测试过程中,CNN可以通过自适应微调(adaptive fine-tuning)更好地利用特定图像中的信息。
3.GM interactive
Rupprecht等人(2018)提出了一种新的交互式分割方法GM interactive。该方法根据用户输入的文本更新图像分割结果,通过交互式地修改编码器和解码器之间的特征映射来改变网络的输出。首先根据用户响应来设置区域类别,随后通过反向传播更新一些指导参数(包括乘法和偏移系数),最后改变特征映射,得到更新的分割结果。
基于深度学习的交互式图像分割由于可以减少用户的交互次数和时间,从而具有更广阔的应用前景。
四、医学分割数据集介绍
为了帮助临床医生进行准确的诊断,需要借助计算机对医学图像中重要的器官、组织或病变进行分割,并对分割后的对象进行特征提取。因此,各种医学图像数据集被收集和整理,相应的比赛项目也启动了很多,以促进计算机辅助诊断技术的发展。近年来,随着深度学习技术的发展,研究者们专注于开发更全面的计算解剖模型,并促进了多器官分析模型(multi-organ analysis models)的发展。
(一)多器官分割(multi-organ segmentation)数据
多器官分割方法不同于传统的器官特异性分割方法(organ-specific strategies),它将不同器官之间的关系整合到模型中,以更准确地表示复杂的人体解剖结构。在多器官分析的背景下,大脑和腹部的医学图像成为最常用的医学图像之一。因此有许多关于大脑和腹部的数据集,如BRATS,ISLES,KITS,LITS,CHAOS等。大量数据集的出现有两个原因:一方面是成像技术的快速发展,分辨率越来越高,显示出的更详细的解剖组织也为临床医生提供了更好的参考;另一方面,随着深度学习技术的发展,许多研究团队收集了大量的样本和标注数据,以便作为训练样本来训练网络模型。此外,腹部中稳定的器官结构(如肝脏、脾脏和肾脏)可以为构建腹部计算解剖模型(computational anatomical models)提供约束和上下文信息。事实上,由于缺乏大型数据集来描述人体解剖的复杂性,构建更全面与全球化的解剖模型仍然是未来最大的挑战和机遇之一。
(二)常用的公开医学数据集
下表给出了常用的公开医学图像分割数据集的简要描述,可以看到大部分为大脑和腹部的数据集,也有如CHAOS,Medical Segmentation Decathlon此类包含多个部位的综合型医学图像数据集。事实上,除表中所列还有许多其他可用的公共数据集。
Dataset | Objects | URL |
---|---|---|
LITS | Liver | https://competitions.codalab.org/competitions/17094 |
Sliver07 | Liver | http://www.sliver07.org/ |
3Dircadb | Liver | https://www.ircad.fr/research/3dircadb/ |
NIH Pancreas | Pancreas | http://academictorrents.com/details/80ecfefcabede760cdbdf63e38986501f7becd49 |
COLONOGRAPHY | Colon cancer | https://wiki.cancerimagingarchive.net/display/Public/CT+COLONOGRAPHY#dc149b9170f54aa29e88f1119e25ba3e |
AMRG Cardiac Atlas | Heart | http://www.cardiacatlas.org/studies/amrg-cardiac-atlas/ |
LIDC-IDRI | Lung | https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI# |
PORMISE12 | Prostate | https://promise12.grand-challenge.org/ |
OASIS | Brain | http://www.oasis-brains.org/ |
BRATS | Brain | https://www.med.upenn.edu/sbia/brats2018/registration.html |
ISLES | Brain | http://www.isles-challenge.org/ |
mTOP | Brain | https://www.smir.ch/MTOP/Start2016 |
KITS | Kidney | https://kits19.grand-challenge.org |
CHAOS | Spleen/ Liver/ Kidneys | https://chaos.grand-challenge.org/ |
Medical Segmentation Decathlon | Spleen/ Liver/ Pancreas/ Brain/ Tumor/ Heart/ Hippocampus/ Prostate/ Lung/ Hepatic Vessel/ Colon | http://medicaldecathlon.com/index.html |
五、挑战与展望
最后,作者进行了总结,并提出了医学图像分割领域面临的挑战与展望:
当前众多实践结果证明,基于深度神经网络的医学图像全自动分割是非常有价值的研究。通过回顾深度学习在医学图像分割中的进展,我们发现了潜在的困难。虽然研究人员成功地采用了多种手段来提高医学图像分割的准确性,但仅仅提高精度并不能证明算法具有优良性能。特别是在医学图像分析领域,我们必须考虑分类不平衡、噪声干扰和漏检问题所带来的严重后果。因此,未来的研究方向可以从网络结构设计(Design of Network Architecture)、损失函数设计(Design of Loss Function)、其他研究方向(如迁移学习、模型解释性、预处理与后处理等)寻求创新与突破点。
参考文献
(该参考文献为综述文章后面的参考文献)
[1] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in Proc. Int. Conf. Med. Image Comput. Comput. Assist. Intervent. (MICCAI). Springer, 2015, pp. 234–241.
[2] Z. Yu-Qian, G. Wei-Hua, C. Zhen-Cheng, T. Jing-Tian, and L. LingYun, “Medical images edge detection based on mathematical morphology,” in Proc. IEEE Eng. Med. Biol. Soc. IEEE, 2006, pp. 6492–6495.
[3] M. Lalonde, M. Beaulieu, and L. Gagnon, “Fast and robust optic disc detection using pyramidal decomposition and hausdorff-based template matching,” IEEE Trans. Med. Image., vol. 20, no. 11, pp. 1193–1200, 2001.
[4] W. Chen, R. Smith, S.-Y. Ji, K. R. Ward, and K. Najarian, “Automated ventricular systems segmentation in brain ct images by combining lowlevel segmentation and high-level template matching,” BMC Medical Inform. Decis. Mak., vol. 9, no. S1, p. S4, 2009.
[5] A. Tsai, A. Yezzi, W. Wells, C. Tempany, D. Tucker, A. Fan, W. E. Grimson, and A. Willsky, “A shape-based approach to the segmentation of medical imagery using level sets,” IEEE Trans. Med. Imaging, vol. 22, no. 2, pp. 137–154, 2003.
[6] C. Li, X. Wang, S. Eberl, M. Fulham, Y. Yin, J. Chen, and D. D. Feng, “A likelihood and local constraint level set model for liver tumor segmentation from ct volumes,” IEEE Trans. Biomed. Eng., vol. 60, no. 10, pp. 2967–2977, 2013.
[7] S. Li, T. Fevens, and A. Krzyżak, “A svm-based framework for ˙ autonomous volumetric medical image segmentation using hierarchical and coupled level sets,” in Int. Congr. Series, vol. 1268. Elsevier, 2004, pp. 207–212.
[8] K. Held, E. R. Kops, B. J. Krause, W. M. Wells, R. Kikinis, and H.- W. Muller-Gartner, “Markov random field segmentation of brain mr images,” IEEE Trans. Med. Imaging, vol. 16, no. 6, pp. 878–886, 1997.
[9] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in Proc. the IEEE Conf. Comput. Vis. Pattern Recognitit. (CVPR), 2015, pp. 3431–3440.
[10] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking atrous convolution for semantic image segmentation,” arXiv preprint arXiv:1706.05587, 2017.
[11] Ö. Çiçek, A. Abdulkadir, S. S. Lienkamp, T. Brox, and O. Ronneberger, ¨ “3d u-net: learning dense volumetric segmentation from sparse annotation,” in Proc. Int. Conf. Med. Image Comput. Comput. Assist. Intervent. (MICCAI). Springer, 2016, pp. 424–432.
[12] F. Milletari, N. Navab, and S.-A. Ahmadi, “V-net: Fully convolutional neural networks for volumetric medical image segmentation,” in Conf. 3D Vis. (3DV). IEEE, 2016, pp. 565–571.
[13] H. Chen, Q. Dou, L. Yu, and P.-A. Heng, “Voxresnet: Deep voxelwise residual networks for volumetric brain segmentation,” arXiv preprint arXiv:1608.05895, 2016.
[14] K. Lee, J. Zung, P. Li, V. Jain, and H. S. Seung, “Superhuman accuracy on the snemi3d connectomics challenge,” arXiv preprint arXiv:1706.00120, 2017.
[15] X. Xiao, S. Lian, Z. Luo, and S. Li, “Weighted res-unet for highquality retina vessel segmentation,” in Conf. Informa. Technol. Med. Educ. (ITME). IEEE, 2018, pp. 327–331.
[16] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Comput., vol. 9, no. 8, pp. 1735–1780, 1997.
[17] M. Z. Alom, M. Hasan, C. Yakopcic, T. M. Taha, and V. K. Asari, “Recurrent residual convolutional neural network based on u-net (r2u-net) for medical image segmentation,” arXiv preprint arXiv:1802.06955, 2018.
[18] Y. Gao, J. M. Phillips, Y. Zheng, R. Min, P. T. Fletcher, and G. Gerig, “Fully convolutional structured lstm networks for joint 4d medical image segmentation,” in Proc. IEEE Int. Symp. Biomed. Imag. (ISBI). IEEE, 2018, pp. 1104–1108.
[19] W. Bai, H. Suzuki, C. Qin, G. Tarroni, O. Oktay, P. M. Matthews, and D. Rueckert, “Recurrent neural networks for aortic image sequence segmentation with sparse annotations,” in Proc. Int. Conf. Med. Image Comput. Comput. Assist. Intervent.(MICCAI). Springer, 2018, pp. 586– 594.
[20] N. Ibtehaz and M. S. Rahman, “Multiresunet: Rethinking the u-net architecture for multimodal biomedical image segmentation,” Neural Netw., vol. 121, pp. 74–87, 2020.
[21] H. Seo, C. Huang, M. Bassenne, R. Xiao, and L. Xing, “Modified unet (mu-net) with incorporation of object-dependent high level features for improved liver and liver-tumor segmentation in ct images,” IEEE Trans. Med. Imag., vol. 39, no. 5, pp. 1316–1325, 2019.
[22] X. Chen, R. Zhang, and P. Yan, “Feature fusion encoder decoder network for automatic liver lesion segmentation,” in Proc. IEEE 16th Int. Symp. Biomed. Imag. (ISBI). IEEE, 2019, pp. 430–433.
[23] P. F. Christ, M. E. A. Elshaer, F. Ettlinger, S. Tatavarty, M. Bickel, P. Bilic, M. Rempfler, M. Armbruster, F. Hofmann, M. D’Anastasi et al., “Automatic liver and lesion segmentation in ct using cascaded fully convolutional neural networks and 3d conditional random fields,” in Proc. Int. Conf. Med. Image Comput. Comput.-Assist. Intervent. Springer, 2016, pp. 415–423.
[24] W. Tang, D. Zou, S. Yang, and J. Shi, “Dsl: Automatic liver segmentation with faster r-cnn and deeplab,” in Proc. Int. Conf. Artif. Neural Netw. Springer, 2018, pp. 137–147.
[25] K. He, G. Gkioxari, P. Dollár, and R. Girshick, “Mask r-cnn,” in Proc. the IEEE Conf. on Comput. Vis. (ICCV), 2017, pp. 2961–2969.
[26] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint arXiv:2004.10934, 2020.
[27] M. A. Al-Antari, M. A. Al-Masni, M.-T. Choi, S.-M. Han, and T.-S. Kim, “A fully integrated computer-aided diagnosis system for digital x-ray mammograms via deep learning detection, segmentation, and classification,” Int. J. Med. Inform., vol. 117, pp. 44–54, 2018.
[28] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137–1149, 2016.
[29] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 40, no. 4, pp. 834–848, 2017.
[30] S. S. M. Salehi, D. Erdogmus, and A. Gholipour, “Auto-context convolutional neural network (auto-net) for brain extraction in magnetic resonance imaging,” IEEE Trans. Med. Imaging, vol. 36, no. 11, pp. 2319–2330, 2017.
[31] Y. Yan, P.-H. Conze, E. Decencière, M. Lamard, G. Quellec, B. Cochener, and G. Coatrieux, “Cascaded multi-scale convolutional encoderdecoders for breast mass segmentation in high-resolution mammograms,” in Annu. Int. Conf. IEEE. Eng. Med. Biol. Soc. (EMBC). IEEE, 2019, pp. 6738–6741.
[32] M. Oda, H. R. Roth, T. Kitasaka, K. Misawa, M. Fujiwara, and K. Mori, “Abdominal artery segmentation method from ct volumes using fully convolutional neural network,” Int. J. Comput. Assist Radiol. Surg., vol. 14, no. 12, pp. 2069–2081, 2019.
[33] M. H. Vu, G. Grimbergen, T. Nyholm, and T. Löfstedt, “Evaluation of ¨ multi-slice inputs to convolutional neural networks for medical image segmentation,” arXiv preprint arXiv:1912.09287, 2019.
[34] X. Li, H. Chen, X. Qi, Q. Dou, C.-W. Fu, and P.-A. Heng, “Hdenseunet: hybrid densely connected unet for liver and tumor segmentation from ct volumes,” IEEE Trans. Med. Imag, vol. 37, no. 12, pp. 2663–2674, 2018.
[35] J. Zhang, Y. Xie, P. Zhang, H. Chen, Y. Xia, and C. Shen, “Lightweight hybrid convolutional network for liver tumor segmentation.” in Int. Joint Conf. Artif. Intell. (IJCAI), 2019, pp. 4271–4277.
[36] R. Dey and Y. Hong, “Hybrid cascaded neural network for liver lesion segmentation,” in Proc. IEEE Int. Symp. Biomed. Imag. (ISBI). IEEE, 2020, pp. 1173–1177.
[37] J. M. J. Valanarasu, V. A. Sindagi, I. Hacihaliloglu, and V. M. Patel, “Kiu-net: Towards accurate segmentation of biomedical images using over-complete representations,” in roc. Int. Conf. Med. Image Comput. Comput. Assist. Intervent.(MICCAI). Springer, 2020, pp. 363–373.
[38] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Adv. Neural Inform. Process. Syst., 2014, pp. 2672–2680.
[39] P. Luc, C. Couprie, S. Chintala, and J. Verbeek, “Semantic segmentation using adversarial networks,” arXiv preprint arXiv:1611.08408, 2016.
[40] V. K. Singh, H. A. Rashwan, S. Romani, F. Akram, N. Pandey, M. M. K. Sarker, A. Saleh, M. Arenas, M. Arquez, D. Puig et al., “Breast tumor segmentation and shape classification in mammograms using generative adversarial and convolutional neural network,” Expert Syst. Appl., vol. 139, p. 112855, 2020.
[41] P.-H. Conze, A. E. Kavur, E. C.-L. Gall, N. S. Gezer, Y. L. Meur, M. A. Selver, and F. Rousseau, “Abdominal multi-organ segmentation with cascaded convolutional and adversarial deep networks,” arXiv preprint arXiv:2001.09521, 2020.
[42] O. Oktay, E. Ferrante, K. Kamnitsas, M. Heinrich, W. Bai, J. Caballero, S. A. Cook, A. De Marvao, T. Dawes, D. P. O‘Regan et al., “Anatomically constrained neural networks (acnns): application to cardiac image enhancement and segmentation,” IEEE Trans. Med. Image., vol. 37, no. 2, pp. 384–395, 2017.
[43] A. Boutillon, B. Borotikar, V. Burdin, and P.-H. Conze, “Combining shape priors with conditional adversarial networks for improved scapula segmentation in mr images,” in Proc. IEEE Int. Symp. Biomed. Imag. (ISBI). IEEE, 2020, pp. 1164–1167.
[44] S. Guan, A. A. Khan, S. Sikdar, and P. V. Chitnis, “Fully dense unet for 2-d sparse photoacoustic tomography artifact removal,” IEEE journal of biomedical and health informatics, vol. 24, no. 2, pp. 568–576, 2019.
[45] Z. Zhou, M. M. R. Siddiquee, N. Tajbakhsh, and J. Liang, “Unet++: Redesigning skip connections to exploit multiscale features in image segmentation,” IEEE Trans. Med. Imag., vol. 39, no. 6, pp. 1856–1867, 2019.
[46] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu, “Deeplysupervised nets,” in Artif. Intell. Statistics, 2015, pp. 562–570.
[47] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proc. the IEEE Conf. Comput. Vis. Pattern Recognitit.(CVPR), 2015, pp. 1–9.
[48] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in Proc. the IEEE Conf. Comput. Vis. Pattern Recognitit.(CVPR), 2016, pp. 2818–2826.
[49] Z. Gu, J. Cheng, H. Fu, K. Zhou, H. Hao, Y. Zhao, T. Zhang, S. Gao, and J. Liu, “Ce-net: Context encoder network for 2d medical image segmentation,” IEEE Trans. Med. Imag., vol. 38, no. 10, pp. 2281– 2292, 2019.
[50] T. Lei, W. Zhou, Y. Zhang, R. Wang, H. Meng, and A. K. Nandi, “Lightweight v-net for liver segmentation,” in IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP). IEEE, 2020, pp. 1379–1383.
[51] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “Mobilenets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017.
[52] C. Huang, H. Han, Q. Yao, S. Zhu, and S. K. Zhou, “3d u net: A 3d universal u-net for multi-domain medical image segmentation,” in Proc. Int. Conf. Med. Image Comput. Comput. Assist. Intervent. (MICCAI). Springer, 2019, pp. 291–299.
[53] M. Jaderberg, K. Simonyan, A. Zisserman et al., “Spatial transformer networks,” in in Proc. Adv. Neural Inf. Process. Syst., 2015, pp. 2017– 2025.
[54] O. Oktay, J. Schlemper, L. L. Folgoc, M. Lee, M. Heinrich, K. Misawa, K. Mori, S. McDonagh, N. Y. Hammerla, B. Kainz et al., “Attention u-net: Learning where to look for the pancreas,” arXiv preprint arXiv:1804.03999, 2018.
[55] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in in Proc. IEEE Conf. Comput. Vis. Pattern Recogniti., 2018, pp. 7132– 7141.
[56] C. Kaul, S. Manandhar, and N. Pears, “Focusnet: An attention-based fully convolutional network for medical image segmentation,” in Proc. IEEE 16th Int. Symp. Biomed. Imag. (ISBI). IEEE, 2019, pp. 455–458.
[57] C. Wang, Y. He, Y. Liu, Z. He, R. He, and Z. Sun, “Sclerasegnet: an improved u-net model with attention for accurate sclera segmentation,” in Proc. IAPR Int. Conf. Biometrics. IEEE, 2019, pp. 1–8.
[58] Z. Wang, N. Zou, D. Shen, and S. Ji, “Non-local u-nets for biomedical image segmentation.” in Proc. AAAI Conf. Artif. Intell., 2020, pp. 6315– 6322.
[59] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 9, pp. 1904–1916, 2015.
[60] M. M. Lopez and J. Ventura, “Dilated convolutions for brain tumor segmentation in mri scans,” in Int. Conf. Med. Image Comput. Comput. Assist. Intervent. (MICCAI) wrokshop. Springer, 2017, pp. 253–262.
[61] P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, and G. Cottrell, “Understanding convolution for semantic segmentation,” in Proc. IEEE Winter Conf. Appl. Comput. Vis. (WACV). IEEE, 2018, pp. 1451–1460.
[62] L. Yang, Q. Song, Z. Wang, and M. Jiang, “Parsing r-cnn for instancelevel human analysis,” in Proc. IEEE Conf. Comput. Vis.Pattern Recognit. (CVPR), 2019, pp. 364–373.
[63] S. S. M. Salehi, D. Erdogmus, and A. Gholipour, “Tversky loss function for image segmentation using 3d fully convolutional deep networks,” in Int. Workshop Mach. Learn. Med. Imag. Springer, 2017, pp. 379–387.
[64] C. H. Sudre, W. Li, T. Vercauteren, S. Ourselin, and M. J. Cardoso, “Generalised dice overlap as a deep learning loss function for highly unbalanced segmentations,” in Deep learn. Med. Imag. Anal. Multimodal Learn. Clin. Decis. Support. Springer, 2017, pp. 240–248.
[65] H. Kervadec, J. Bouchtiba, C. Desrosiers, E. Granger, J. Dolz, and I. B. Ayed, “Boundary loss for highly unbalanced segmentation,” in arXiv preprint arXiv:1812.07032. PMLR, 2019, pp. 285–296.
[66] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, “Focal loss for dense object detection,” in Proc. IEEE Int. Conf. Comput. Vis., 2017, pp. 2980–2988.
[67] K. C. Wong, M. Moradi, H. Tang, and T. Syeda-Mahmood, “3d segmentation with exponential logarithmic loss for highly unbalanced object sizes,” in Proc. Int. Conf. Med. Image Comput. Comput.-Assist. Intervent. Springer, 2018, pp. 612–619.
[68] X. Chen, B. M. Williams, S. R. Vallabhaneni, G. Czanner, R. Williams, and Y. Zheng, “Learning active contour models for medical image segmentation,” in Proc. the IEEE Conf. Comput. Vis. Pattern Recognitit., 2019, pp. 11 632–11 640.
[69] X. Li, L. Yu, H. Chen, C.-W. Fu, L. Xing, and P.-A. Heng, “Transformation-consistent self-ensembling model for semisupervised medical image segmentation,” arXiv preprint arXiv:1903.00348, 2020.
[70] D. Karimi and S. E. Salcudean, “Reducing the hausdorff distance in medical image segmentation with convolutional neural networks,” IEEE Trans. Med. Imag., vol. 39, no. 2, pp. 499–513, 2019.
[71] S. A. Taghanaki, Y. Zheng, S. K. Zhou, B. Georgescu, P. Sharma, D. Xu, D. Comaniciu, and G. Hamarneh, “Combo loss: Handling input and output imbalance in multi-organ segmentation,” Comput. Med. Imag. Graph., vol. 75, pp. 24–33, 2019.
[72] F. Caliva, C. Iriondo, A. M. Martinez, S. Majumdar, and V. Pedoia, “Distance map loss penalty term for semantic segmentation,” arXiv preprint arXiv:1908.03679, 2019.
[73] Q. Dou, L. Yu, H. Chen, Y. Jin, X. Yang, J. Qin, and P.-A. Heng, “3d deeply supervised network for automated segmentation of volumetric medical images,” Med. Image Anal., vol. 41, pp. 40–54, 2017.
[74] H. Dou, D. Karimi, C. K. Rollins, C. M. Ortinau, L. Vasung, C. Velasco-Annis, A. Ouaalam, X. Yang, D. Ni, and A. Gholipour, “A deep attentive convolutional neural network for automatic cortical plate segmentation in fetal mri,” arXiv preprint arXiv:2004.12847, 2020.
[75] J. T. Guibas, T. S. Virdi, and P. S. Li, “Synthetic medical images from dual generative adversarial networks,” arXiv preprint arXiv:1709.01872, 2017.
[76] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014.
[77] D. Mahapatra, B. Bozorgtabar, J.-P. Thiran, and M. Reyes, “Efficient active learning for image classification and segmentation using a sample selection and conditional generative adversarial network,” in Proc. Int. Conf. Med. Image Comput. Comput. Assist. Intervent. (MICCAI). Springer, 2018, pp. 580–588.
[78] H.-C. Shin, N. A. Tenenholtz, J. K. Rogers, C. G. Schwarz, M. L. Senjem, J. L. Gunter, K. P. Andriole, and M. Michalski, “Medical image synthesis for data augmentation and anonymization using generative adversarial networks,” in Proc. Int. Conf. Med. Image Comput. Comput. Assist. Intervent. (MICCAI). Springer, 2018, pp. 1–11.
[79] D. Jin, Z. Xu, Y. Tang, A. P. Harrison, and D. J. Mollura, “Ct-realistic lung nodule simulation from 3d conditional generative adversarial networks for robust lung segmentation,” in Proc. Int. Conf. Med. Image Comput. Comput. Assist. Intervent. (MICCAI). Springer, 2018, pp. 732–740.
[80] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proc. the IEEE Conf. on Comput. Vis. (ICCV), 2017, pp. 2223–2232.
[81] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo, “Stargan: Unified generative adversarial networks for multi-domain image-toimage translation,” in Proc. the IEEE Conf. Comput. Vis. Pattern Recognitit. (CVPR), 2018, pp. 8789–8797.
[82] A. A. Kalinin, V. I. Iglovikov, A. Rakhlin, and A. A. Shvets, “Medical image segmentation using deep neural networks with pre-trained encoders,” in Deep Learn. Appl. Springer, 2020, pp. 39–52.
[83] P.-H. Conze, S. Brochard, V. Burdin, F. T. Sheehan, and C. Pons, “Healthy versus pathological learning transferability in shoulder muscle mri segmentation using deep convolutional encoder-decoders,” Comput. Med. Imaging Graph, p. 101733, 2020.
[84] Y. Huo, Z. Xu, S. Bao, A. Assad, R. G. Abramson, and B. A. Landman, “Adversarial synthesis learning enables segmentation without target modality ground truth,” in Proc. IEEE 15th Int. Symp. Biomed. Imag. (ISBI). IEEE, 2018, pp. 1217–1220.
[85] C. Chen, Q. Dou, H. Chen, J. Qin, and P.-A. Heng, “Synergistic image and feature adaptation: Towards cross-modality domain adaptation for medical image segmentation,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, 2019, pp. 865–872.
[86] A. Chartsias, T. Joyce, R. Dharmakumar, and S. A. Tsaftaris, “Adversarial image synthesis for unpaired multi-modal cardiac data,” in Int. Workshop Simul. Synth. Med. Imag. Springer, 2017, pp. 3–13.
[87] C. Zhao, A. Carass, J. Lee, Y. He, and J. L. Prince, “Whole brain segmentation and labeling from ct using synthetic mr images,” in Int. Workshop Mach. Learn. Med. Imag. Springer, 2017, pp. 291–298.
[88] V. V. Valindria, N. Pawlowski, M. Rajchl, I. Lavdas, E. O. Aboagye, A. G. Rockall, D. Rueckert, and B. Glocker, “Multi-modal learning from unpaired images: Application to multi-organ segmentation in ct and mri,” in Proc. IEEE Winter Conf. Appl. Comput. Vis. (WACV). IEEE, 2018, pp. 547–556.
[89] G. Wang, M. A. Zuluaga, W. Li, R. Pratt, P. A. Patel, M. Aertsen, T. Doel, A. L. David, J. Deprest, S. Ourselin et al., “Deepigeos: a deep interactive geodesic framework for medical image segmentation,” IEEE transactions on pattern analysis and machine intelligence, vol. 41, no. 7, pp. 1559–1572, 2018.
[90] G. Wang, W. Li, M. A. Zuluaga, R. Pratt, P. A. Patel, M. Aertsen, T. Doel, A. L. David, J. Deprest, S. Ourselin et al., “Interactive medical image segmentation using deep learning with image-specific fine tuning,” IEEE Trans. Med. Imag, vol. 37, no. 7, pp. 1562–1573, 2018.
[91] Y. Y. Boykov and M.-P. Jolly, “Interactive graph cuts for optimal boundary & region segmentation of objects in nd images,” in Proc. the IEEE Conf. on Comput. Vis. (ICCV), vol. 1. IEEE, 2001, pp. 105–112.
[92] C. Rother, V. Kolmogorov, and A. Blake, “” grabcut” interactive foreground extraction using iterated graph cuts,” ACM Trans. Graph., vol. 23, no. 3, pp. 309–314, 2004.
[93] C. Rupprecht, I. Laina, N. Navab, G. D. Hager, and F. Tombari, “Guide me: Interacting with deep networks,” in Proc. Int. Conf. Med. Image Comput. Comput-Assist. Intervent, 2018, pp. 8551–8561.
[94] P. Bilic, P. F. Christ, E. Vorontsov, G. Chlebus, H. Chen, Q. Dou, C.-W. Fu, X. Han, P.-A. Heng, J. Hesser et al.,“The liver tumor segmentation benchmark (lits),” arXiv preprint arXiv:1901.04056, 2019.
[95] S. Bakas, H. Akbari, A. Sotiras, M. Bilello, M. Rozycki, J. S. Kirby, J. B. Freymann, K. Farahani, and C. Davatzikos,“Advancing the cancer genome atlas glioma mri collections with expert segmentation labels and radiomic features,” Nat. Scient. Data, vol. 4, p. 170117, 2017.
[96] S. Bakas, M. Reyes, A. Jakab, S. Bauer, M. Rempfler, A. Crimi, R. T. Shinohara, C. Berger, S. M. Ha, M. Rozycki et al.,“Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge,” arXiv preprint arXiv:1811.02629, 2018.
[97] O. Maier, B. H. Menze, J. von der Gablentz, L. Häni, M. P. Heinrich, M. Liebrand, S. Winzeck, A. Basit, P. Bentley, L. Chen et al., “Isles 2015-a public evaluation benchmark for ischemic stroke lesion segmentation from multispectral mri,” Med. Image Anal., vol. 35, pp. 250–269, 2017.
[98] N. Heller, N. Sathianathen, A. Kalapara, E. Walczak, K. Moore, H. Kaluzniak, J. Rosenberg, P. Blake, Z. Rengel, M. Oestreich et al., “The kits19 challenge data: 300 kidney tumor cases with clinical context, ct semantic segmentations, and surgical outcomes,” arXiv preprint arXiv:1904.00445, 2019.
[99] A. E. Kavur, M. A. Selver, O. Dicle, M. Barıs, and N. S. Gezer,“Chaoscombined (ct-mr) healthy abdominal organ segmentation challenge data,” 2019.
[100] J. J. Cerrolaza, M. L. Picazo, L. Humbert, Y. Sato, D. Rueckert, M. Á. G. Ballester, and M. G. Linguraru,“Computational anatomy for multi-organ analysis in medical imaging: A review,” Med. Image Anal., vol. 56, pp. 44–67, 2019
- END -